Карань Анна
студентка факультета биоинженерии и бионформатики

Чтение последовательностей по Сэнгеру

Forward последовательность, Reverse
В данном практикуме необходимо прочитать последовательность ДНК на основании данных, полученных из капиллярного секвенатора по Сэнгеру и составить отчёт о проблемах при чтении хроматограмм.
Характеристика хроматограммы:
1. У прямой цепочки длина начального нечитаемого участка примерно 50 нуклеотидов, конечного - 210. У комплементарной обратной цепочке длина начального нечитаемого участка - 210, конечного - 50.
2. Отношение сигнала и шума на глаз в среднем равно 5.
3. Неравномерность силы сигнала и шума. Для прямой цепи сигнал сильнее для С и Т, для комплементарной обратной соответственно G и А. Шум самый низкий в середине чтения, хуже к началу и концу (ухудшение начинается еще до нечитаемых областей.
4. Из других особенностей можно отметить, что "хорошие", отдельные пики на комплементарной обратной последовательности идут примерно с 500 по 800, на прямой цепи примерно со 100 до 400.
С помощью команды find последовательности были выравнены (Рис.1)

Рис.1. Выравненные друг под другом комплементарной обратной цепи (сверху) и прямой (снизу).

Понятно, что пока программа не способна во всех спорных случаях выбрать правильный вариант, поэтому вся последовательность, выданная программой после анализа сигналов, была проанализирована и ниже приведены некоторые спорные случаи и способы их решения.

A

B

A

Рис.2.А)Результат выданный программой Chromas. Как видно, поставлено N, так как пик от G соразмерен с пиком от С. B)Я заменила N на С, потому что это начало послдоательности после нечитаемого фрагмента, и пик для G примерно такой же высоты, как ближайшие шумовые пики. (например, пик G у 3-го А на этом изображении абсолютно такой же высоты

Рис.3.А) В данном случае я согласилась с анализом программы, посчитав высокий пик Т между G и А шумовым, так как иначе расстояние между нуклеотидами слишком маленькое.

A

B

A

B

Рис.4.А)Здесь 2 проблемных нуклеотида - 27, 28 И программа, хоть уровень сигнала от C нуклеотида даже превосходить В)Так как уровень 2-х сигналов совпадает, я решила, что это полиморфизм 2-х нуклеотидов. 27 - S, т.е. полиморфизм С и G, а 28 - M, полиморфизм С и Т.

Рис.5.А)Программа поставила здесь N В)Я же считаю, что хотя сигнал от C только в два раза меньше, чем сигнал от G, то тут имеет смысл поставить G, потому что соседние точно шумовые пики примерно такого же размера.

A

A

B

Рис.6.А) в данном случае пики у нуклеотида 342 и между нуклеотидами 350 и 351 одинаковой высоты и принадлежат одному нуклеотиду - G. B) Однако, я считаю, что в одном случае это шум, а в другом сигнал от правильного нуклеотида, так как расстояние между двумя А (341 и 343) будет тогда слишком большим. А с шумовых пиком как раз наоборот, если предположить, что там есть нуклеотид G, то тогда расстояние между правильными пиками будет неествественно маленьким, а также пик в данном случае все-таки значительно ниже, чем соседние Т и А.

Рис.7.А)В данном фрагменте программа поставила N на место 576 нуклеотида. В)Здесь этот же фрагмент на комплементарной обратной цепи, так как для этого секвенса это середина, то пике тут отчетливее, поэтому явно видно, что это нуклеотид G.

Но на разборе таких проблемных мест запись правильной последовательности не заканчивается, когда начинается нечитаемый фрагмент на прямой цепи, на комплементарной обратной цепи последовательности часть с "хорошими". отдельными пиками. Таким ообразом, совмещая прямую и обратную последовательность, мы получаем максимально длинное вероятно правильное прочтение.
fasta файл, экпортированный из Chromas после исправлений

Рис.8. Фрагмент выравнивания в Jalview между прямой последовательностью и комплементарной обратной после анализа в Chromas

Проект выравнивания в Jalview

Выравнивание из проекта Jalview

Рис.9. Пример не читаемого фрагмента хроматограммы

На Рис.8. изображен не читаемый фрагмент хроматограммы. Такое может возникать по разным причинам. Во-первых, начало сиквенса всегда плохого качества, так как ДНК-полимераза несколько раз садится и начинает копировать фрагмент, выдавая много коротких фрагментов. Во-вторых, если проба оказалось загрязнена другими молекулами ДНК, то может весь сиквенс может оказаться не читаемым В-третьих, если были взяты пробы нескольких организмов (ну т.е. несколько бактерий), то сиквенс может быть не читаемым.
Представленный выше фрагмент как раз из начала сиквенса, здесь совсем не видно разделения пиков и представлены почти все нуклеотиды одновременно.


©Карань Анна, 2015